热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

简史|本文_大数据笔记:大数据启蒙与入门知识

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据笔记:大数据启蒙与入门知识相关的知识,希望对你有一定的参考价值。 目录 大数据启蒙与入门知识 一、前言 二、千里之行,始于足下 三

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据笔记:大数据启蒙与入门知识相关的知识,希望对你有一定的参考价值。


目录

大数据启蒙与入门知识

一、前言

二、千里之行,始于足下

三、分治思想

四、单机处理大数据问题

五、集群分布式处理大数据的辩证

六、Hadoop之父Doug Cutting

七、Hadoop的时间简史

八、Hadoop项目/生态

九、大数据生态





大数据启蒙与入门知识

一、前言

博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有

经典语录:那日看雪,你从未看我,我从未看雪


二、千里之行,始于足下


  • 启蒙很重要
  • 分治思想
  • 单机处理大数据问题
  • 集群分布式处理大数据的辩证


三、分治思想

需求:


  • 我有一万个元素(比如数字或单词)需要存储?
  • 如果查找某一个元素,最简单的遍历方式复杂的是多少?
  • 如果我期望复杂度是O(4)呢?

学习知识的时候要去搞明白它存在的意义,这样学习成本才会低


分而治之的思想很重要,出现在了很多地方:


  • Redis集群
  • ElasticSearch
  • Hbase
  • HADOOP生态无处不在! 


四、单机处理大数据问题

需求:


  • 有一个非常大的文本文件,里面有很多很多的行,只有两行一样,它们出现在未知的位置,需要查找到它们
  • 单机,而且可用的内存很少,也就几十兆

解决思路: 


  • 假设Io速度是500MB每秒
  • 1T文件读取一遍需要约30分钟
  • 循环遍历需要N次Io时间
  • 分治思想可以使时间为2次io

小贴士:内存寻址比Io寻址快10万倍

思考: 如果让时间变为分钟、秒级别

 


五、集群分布式处理大数据的辩证


  • 2000台真的比一台速度快吗?
  • 如果考虑分发上传文件的时间呢?
  • 如果考虑每天都有1T数据的产生呢?
  • 如果增量了一年,最后一天计算数据呢?

结论


  • 分而治之 并行计算
  • 计算向数据移动
  • 数据本地化读取
  • 以上这些点是学习大数据技术时需要关心的重点


六、Hadoop之父Doug Cutting


  • Hadoop的发音是 [hædu:p]
  • Cutting儿子对玩具小象的昵称
  • Nutch Lucene
  • Avro
  • Hadoop

 


七、Hadoop的时间简史


  • 《The Google File System 》 2003年
  • 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
  • 《Bigtable: A Distributed Storage System for Structured Data》 2006年
  • Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。
  • 2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
  • Cloudera公司在2008年开始提供基于Hadoop的软件和服务。
  • 2016年10月hadoop-2.6.5
  • 2017年12月hadoop-3.0.0
  • hadoop.apache.org


八、Hadoop项目/生态

The project includes these modules:


  • Hadoop Common
  • Hadoop Distributed File System (HDFS™)
  • Hadoop YARN
  • Hadoop MapReduce

Other Hadoop-related projects at Apache include:


  • Ambari™
  • Avro™
  • Cassandra™
  • Chukwa™
  • HBase™
  • Hive™
  • Mahout™
  • Pig™
  • Spark™
  • Tez™
  • ZooKeeper™


九、大数据生态

www.cloudera.comhttps://www.cloudera.com/Cloudera’s Distribution Including Apache Hadoop CDH is the most complete,tested, and popular distribution of Apache Hadoop and related projects.




  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢大数据系列文章会每天更新,停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨ 

推荐阅读
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 1.官网下载了mysql-5.7.17-win64.zip包,配置遇到很多麻烦,记录一下;2.解压后放到指定的文件夹,修改mysql-5.7.17的配置文件my-default.i ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • 浅析Mysql数据回滚错误的解决方法_PHP教程:MYSQL的事务处理主要有两种方法。1、用begin,rollback,commit来实现begin开始一个事务rollback事 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • Hive的数据表创建数据文件inner_table.dat创建表hive>createtableinner_table(keystri ... [详细]
  • 海马s5近光灯能否直接更换为H7?
    本文主要介绍了海马s5车型的近光灯是否可以直接更换为H7灯泡,并提供了完整的教程下载地址。此外,还详细讲解了DSP功能函数中的数据拷贝、数据填充和浮点数转换为定点数的相关内容。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
author-avatar
Ace狂_338
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有